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基于 存储 改进 的 分 区 并 行 关 联 规则 挖掘 算法 
王 永 贵 ， 谢 RW. di 


(辽宁 工程 技术 大 学 软件 学 院 , 辽宁 葫芦 岛 125105) 


摘 要 : 基于 关联 规则 在 大 数据 挖掘 领域 正 引 起 广泛 关注 ， 算 法 的 重点 及 难点 就 是 挖掘 频繁 集 。 针 对 现 有 算法 存储 结 
构 简 单 、 生 成 大 量 宛 余 的 候选 集 、 时 间 和 空间 复杂 度 高 ， 挖 据 效 率 不 理想 的 情况 。 为 了 进一步 提高 关联 规则 算法 挖掘 
频繁 集 的 速度 ， 优 化 算法 的 执行 性 能 ， 提 出 基于 内 存 结构 改进 的 关联 规则 挖掘 算法 。 算 法 基于 Spark 分 布 式 框架 ， 分 
区 并 行 挖 据 出 频繁 集 ， 提 出 在 挖 据 过 程 中 利用 布 隆 过 滤器 进行 项 目 存储 ， 并 对 事务 集 和 候选 集 进行 精简 化 操作 ， 进 而 
达到 优化 挖掘 频繁 集 的 速度 、 节 省 计算 资源 的 目的 。 算法 在 占用 较 少 内 存 的 条 件 下 ， 相 比 于 YAFIM 和 MRApriori $ 
法 ， 在 挖 据 频繁 集 效 率 上 有 明显 地 提升 。 算 法 不 但 能 较 好 提升 挖 据 速 度 ， 降 低 了 内 存 的 压力 ， 而 且 具 有 很 好 的 可 扩展 
性 ， 使 得 算法 可 以 应 用 到 更 大 规模 的 数据 集 和 集群 ， 从 而 达到 优化 算法 性 能 的 目的 。 
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Partitioned parallel association rules mining algorithm based on storage improvement 


Wang Yonggui, Xie Nani, Qu Haicheng 
(School of Software Liaoning Technical University, Huludao Liaoning 125105, China) 


Abstract: Association rules are attracting wide attention in the field of big data mining. The key and difficult point of the 
algorithm is to mine frequent sets. In order to further improve the speed ofthe association rules mining frequent sets and optimize 


the execution performance of the algorithm, an association rule mining algorithm based on improved memory structure is 


proposed. For the existing algorithm, the storage structure is simple, the candidate set with a large amount of redundancy is 
generated, the time and space complexity is high, and the mining efficiency is not ideal. The algorithm of this paper is based on 
the Spark distributed framework. The partitions are mined in parallel to extract frequent sets. It is proposed to use the Bloom 
filter to store the project in the mining process, and to simplify the operation of the transaction set and the candidate set, so as 
to optimize the speed of mining frequent sets. Save computing resources. Compared with the YAFIM algorithm and the 
MRApriori algorithm, the algorithm has a significant improvement in the efficiency of mining frequent sets under the condition 
of occupying less memory. The algorithm can not only improve the mining speed, reduce the memory pressure, but also has 
good scalability, so that the algorithm can be applied to larger data sets and clusters, so as to optimize the performance of the 
algorithm. 
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0 alg 只 有 当 提 供 的 数据 集 很 小 时 才 会 有 较 好 的 效果 。 
随 着 大 数据 时 代 的 到 来 , 集合 中 元 素 的 增加 , 需要 的 存储 空 

关联 规则 起 初 是 用 来 发 掘 购 物 篮 中 商品 间 的 有 趣 关 系 ， 逐 。， 间 越 来 越 大 ， 检 索 速 度 也 越 来 越 慢 。 各 种 单机 的 Apriori 算法 已 

渐 地 成 为 数据 挖掘 的 重要 方法 之 一 口 。 关 联 规则 的 目的 是 找 出 隐 ”经 不 能 满足 人 们 对 时 间 和 效率 的 需求 。 研 究 者 们 发 现 Apriori 算 
藏 在 大 数据 中 的 商品 关系 , 重点 是 找 出 大 数据 集中 的 频繁 项 集 ， ”法 具有 高 并 行 性 的 可 能 性 , 因此 , 为 了 更 高 效 地 挖掘 频繁 集 , 引 
即 那些 频繁 共同 出 现 的 商品 集合 。 关联 规则 中 最 经 典 、 影 响 最 大 入 了 并 行 算法 B51。 基 于 集群 的 关联 规则 算法 能 够 提高 处 理事 务 
的 算法 就 是 Agrawal 等 人 提出 的 Apriori 算法 中， 通过 逐 层 搜 索 。 数据 集 的 效率 , 但 是 算法 结构 复杂 , 而 且 存 在 同步 、 数 据 复制 等 
效 


P, 


的 迭代 方式 进行 频繁 项 的 挖掘 ， 能 够 快速 精准 的 挖 气 出 关联 规 。 问题 。 研 究 发 现 基于 MapReduce 进行 关联 规则 ， 挖 掘 频繁 集 冯 
则 ,随后 出 现 了 大 量 Apriori 改进 算法 , 但 是 都 采用 串 行 的 方式 ， 率 更 好 ， 随 后 并 行 算法 被 MapReduce 所 取代 ，Apriori 算法 基于 
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录用 稿 王 永 贵 ， 等 : 基于 存储 改进 的 naive D] 


MapReduce 的 实现 [5 被 提出 ， 与 传统 的 Apriori 算法 相 比 显示 

出 高 性 能 增益 。Apache Hadoop fE 7j MapReduce 模型 的 最 佳 

平台 之 一 。 文 献 L040 基 于 Hadoop 平台 实现 的 Apriori 算法 ， 这 1.1 Apriori 算法 

些 算 法 以 MapReduce 的 方式 对 Apriori 算法 进行 并 行 化 处 理 , 用 Apriori 算法 是 一 种 挖掘 布尔 关联 规则 频繁 模式 集 的 算法 09， 
HDFS 存储 数据 集 , 在 海量 数据 中 发 现 频繁 项 集 ， 实 验 表明 该 算 ”首先 遍历 一 次 事务 数据 库 , 对 所 有 一 项 集 的 计数 , 然后 过 滤 到 小 
法 明显 优 于 之 前 Apriori 传统 算法 。 但 是 基于 Hadoop 的 Apriori ”于 最 小 支持 度 的 一 项 集 ， 得 到 频繁 一 项 集 Li， 然后 进行 迭代 ， 
算法 的 实现 仍然 存在 一 些 限 制 。 在 Hadoop 平台 上 , 每 次 迭代 后 频繁 k-1 项 集 Lel 进行 连接 剪 枝 生成 候选 k 项 集 Ck; 最 后 过 
都 会 将 结果 存储 到 HDFS 中 ， 并 从 HDFS 中 获取 输入 以 进行 下 滤 掉 小 于 最 小 支持 度 的 候选 集 得 到 频繁 k 项 集 Lo 直到 Lx 为 空 
一 次 迭代 的 过 程 导 致 性 能 降低 。 文 献 [12] 中 还 指出 Hadoop 中 时 停止 欠 代 ， 输 出 规则 。 算 法 主要 思想 就 是 通过 定理 1 进行 逐 
MapReduce 在 迭代 计算 时 任务 启动 和 磁盘 IO 开销 过 大 使 得 执 民 搜 索 的 迭代 方式 获取 频繁 集 的 过 程 。 


1 ”相关 知识 


行 效率 降低 , 后 来 研究 者 们 提出 了 Spark 平台 , 可 以 很 好 地 解决 定理 1 若 一 个 模式 不 是 频繁 的 , 那么 该 模式 的 所 有 超 集 也 
这 些 难 题 。 都 不 是 频繁 模式 . 
Spark 03 平 台 通过 使 用 弹性 分 布 式 数据 集 架 构 RDD 解决 了 现 有 的 关联 规则 算法 的 数据 结构 简单 ， 当 处 理 大 事务 数据 


这 些 问 题 , 该 架构 在 迭代 结束 时 将 结果 存储 在 本 地 缓存 中 , 并 将 集 时 效率 过 低 ;: 所 有 事务 始终 位 于 文件 系统 或 数据 库 , 每 次 迭代 
它们 提供 给 下 一 次 迭代 。 对 此 提出 基于 Spark 平 台 来 改进 Apriori ”都 需要 扫描 事务 数据 库 ; Aprori 算法 挖掘 频繁 集 时 , 会 生成 大 量 
算法 ，Spark 将 数据 基于 内 存 计算 ， 克 服 了 上 述 Hadoop 平台 存 MHRS, 导致 7O 开销 过 大 且 系 统 资源 占用 过 多 , 因此 时 间 性 
在 的 问题 , 使 其 更 加 适用 于 在 线 、 迭 代 和 数据 流 算 法 。 基 于 Spark ”能 和 效率 都 很 差 。 第 二 次 近代 时 , 频繁 一 项 集 有 n 个 ， 自 连接 会 
平台 ，Zhang 等 人 0 提出 了 一 种 分 布 式 频繁 项 目 集 挖掘 算法 用 ER 2* 个 候选 二 项 集 集合 ， 候 选集 数量 和 占用 计算 资源 是 整个 
于 大 数据 分 析 ， 效 果 远 远 好 于 基于 Hadoop 平台 实现 的 Apriori 挖掘 过 程 中 最 多 的 ， 过 多 导致 算法 第 二 次 迭代 挖掘 频繁 集 过 程 
算法 。 上 述 算 法 基于 线性 表 、 链表 、 树 等 数据 结构 ， 这些 数据 结 耗 时 过 久 其 至 无 法 继续 运行 。 


构 , 数据 记录 在 结构 中 的 相对 位 置 是 随机 的 , 查找 时 进行 大 量 关 。 1.2 Spark 平台 
键 字 之 间 的 比较 ， 查 找 效率 过 于 依赖 查找 过 程 中 所 进行 的 比较 Spark 是 一 个 围绕 速度 、 易 用 性 和 复杂 分 析 构 建 的 大 数据 
次 数 ， 随 着 数据 量 的 增长 ， 效 率 都 将 下 降 。 处 理 平台 ,提供 全 面 、 统 一 的 框架 。Spark 7357 HLsX Erg RUA 


Qiu 等 人 05 提 出 了 YAFIM 算法 ， 基 于 Spark 框架 对 大 数据 算法 而 开发 , 通过 大 数据 查询 的 延迟 计算 , 可 以 优化 大 数据 处 理 
分 区 并 行 挖掘 频繁 集 。 该 算法 把 候选 集 存 储 在 哈 希 树 中 , 被 认为 流程 中 的 处 理 步 又 , 支持 内 存 式 存储 和 高 效 的 容错 机 制 , 将 中 间 
是 目前 较 好 的 Apriori 算法 。 实 验 结果 发 现 YAFIM 比 基 于 结果 保存 在 内 存 而 不 是 写 入 磁盘 ， 使 得 MapReduce 提升 到 更 高 
Hadoop 平台 的 算法 要 快 很 多 倍 。 但 是 基于 哈 希 树 存 储 改 进 的 层次 。 
Apriori 算法 需要 先 自 连接 生成 候选 集 ， 再 把 候选 集 存储 在 哈 在 Spark 平台 下 ,将 需要 多 次 迭代 的 机 器 学 习 算 法 并 行 化 ， 
树 中 。 当 数据 集 大 时 ， 哈 希 函 数 很 容易 发 生地 址 冲突 ， 需 量 减少 算法 的 时 间 复 杂 度 和 空间 复杂 度 ， 在 标准 数据 集 上 得 到 更 
内 存 来 完成 每 次 迭代 ， 第 二 次 迭代 出 现 最 多 候选 集 时 内 存 占用 高 效 的 结果 ， 这 使 得 Spark 平台 适合 实现 Apriori 算法 。 本 文 算 
THE 重 影响 算法 效率 。 法 基于 Spark 大 数据 框架 构建 的 分 布 式 平台 来 改进 Apriori 算法 ， 
在 数据 量 很 大 的 情况 下 ， 对 数据 结构 中 项 目 集 的 频繁 增加 保证 结果 精确 度 的 同时 , 解决 了 单机 内 存 资源 受 限 问题 , 并 很 好 
和 删除 , 容易 导致 数据 结构 退化 为 链表 结构 , 当 进 行 迭 代 过 程 ， 地 提升 了 时 间 性 能 。 在 大 数据 背景 下 , 算法 能 快速 的 、 精 准 的 进 
大 量 数据 存储 在 内 存 中 会 对 服务 器 造成 ined 12387 行 关 联 规则 挖掘 。 

性 能 必然 将 下 降 。 因此, 如 何 高 效 地 判断 一 个 项 在 数据 1.8 布 隆 过 滤器 

中 是 提升 算法 执行 速度 的 关键 。 2 dcs 层 只 会 使 用 布 隆 过 滤器 (Bloom filter) 07 是 由 一 组 很 长 的 三 进 制 向 量 和 
个 bit 来 代表 这 个 元 素 ， 并 且 对 项 目 插入 和 查询 时 间 都 是 常数 ， 一 系列 随机 散 列 函数 组 成 的 随机 数据 结构 ， 这 种 数据 结构 用 于 
因此 布 隆 过 滤器 在 空间 和 时 间 方 面 有 巨大 的 优势 ， 方 便 Apriori 判断 一 个 元 素 是 否 在 集合 内 。 现 构建 一 个 长 度 为 M hri 
算法 的 并 行 实现 。 基 此 提出 把 布 隆 过 滤器 应 用 到 Apriori 算法 中 ， 隆 过 滤器 ， 且 所 有 位 都 初始 化 0、 一 组 哈 希 函数 
用 布 隆 过 滤器 来 改进 Apriori 算法 存储 结构 ， 可 以 高 效 判断 项 目 H(x)={ho(X),hi(X),h2(X).…}、 事 务 T={A,B,C}, 事务 中 每 个 项 目 都 
是 否 存在 于 数据 集中 。 算法 基于 Spark 分 布 式 框架 , 对 大 数据 集 通过 K 个 不 同 的 hash 函数 随机 散 列 到 数组 的 K. 个 位 置 上 ， 并 


1 qu 


pup 


ERI 
x 
»x 

iy 
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= 


进行 分 区 处 理 , 随机 分 割 成 大 小 相似 、 非 重 友 的 分 区 数据 集 , 然 。 将 这 些 位 置 置 为 1。 

后 并 行 获取 频繁 集 。 本 文 算法 可 以 明显 节省 内 存 空间 的 同时 很 现 要 判断 项 目 w 是 否 在 该 事务 T 中, 通过 hash 函数 将 事务 

好 地 提高 数据 处 理 的 效率 。 w 映射 成 位 阵列 中 的 点 ， 只 要 看 这 些 点 是 否 都 为 1 就 知道 元 素 
是 否 在 集合 中 。 假 设 项 目 w 通过 三 个 哈 希 函数 进行 散 列 ， 发 现 


出 现 有 地 址 值 为 0, 可 判断 元 素 w 不 属于 该 集合 , 示例 如 图 1 所 
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录用 稿 
示 。 
图 1 布 隆 过 滤器 示例 民 
布 隆 过 滤器 在 判断 一 个 项 目 是 否 属于 该 事务 时 ， 可 能 出 现 
误 判 (false positive) ， 即 项 目 并 不 属于 该 事务 但 经 过 哈 希 散 列 
后 值 都 为 1。 项 目 经 映射 后 值 都 为 1 的 概率 p〔 误 判 率 ) 为 
sf | -ee (1) 
M 
化 简 为 a y Q) 
4 87 g - Kln(1— e F" ^) (3) 
^ q 为 q -- e FM (4) 
可 以 将 8 改写 为 
g=- mi-o) 6) 
根据 对 称 法 则 可 以 得 到 当 q=0.5 时 ， 即 当 Kn/M=In2 时 , p 


取得 最 小 值 。 


一 项 集 数目 自 适应 选择 哈 希 函 
少 不 必 要 的 散 列 操作 ， 避 免 浪 费时 间 


2 算法 
2.1 候选 集 的 精简 化 

算法 基于 Spark 框 
4k 


k^ 


本 文 算法 根据 上 述 条 件 , 自 适 


数 个 数 民 


架 ， 生 成 候选 集 的 过 程 ， 首 先 压 


集 ， 因为 Ck 


定 是 | 


个 项 目 组 成 ， 


k 时 , 无 法 生成 候选 集 Cr, 


中 的 频繁 单项 集 ， 
所 有 可 能 的 k 项 集 ; 
次 数 不 等 于 k(k-1)/2 ff] k 


A UOTE ts TiTi Rm 
到 提升 挖掘 


| 除 掉包 含 项 
然后 压缩 事务 中 的 项 目 ， 根 据 定理 2 只 
通过 一 个 map( ) 函 数 把 这 些 频 
最 后 根据 推论 1 压缩 项 集 
项 集 。 本 文 算法 不 再 i 
步 和 剪 切 步 来 生成 候选 集 ， 效 
的 事务 、 项 
效率 并 节省 计算 资源 的 目的 。 


所 以 事务 
HA UNT k 的 事务 ; 
UR ER TEREE n ER 


应 数据 集 , 根据 频繁 


与 数组 大 小 M， 进 而 减 
空间 且 误 判 率 最 小 。 


中 项 


E 
E 
E 


定理 2 
推论 1 
出 现 了 k(k-1y2 次 。 
证 明 假设 一 


不 为 频繁 集 , 与 定理 


所 以 推论 成 立 。 


集 {A,B}、{A,C} 构 成 ， 这 样 
2 不 符 。 
{B,C} 构成 即 {A,B,C} 出 现 三 


一 个 频繁 集 的 所 有 非 空 子 集 都 是 频繁 集 。 
一 个 频繁 k 项 集 Li 


次 , 频繁 k Ds 


个 频繁 三 项 集 {A,B,C} 可 仅 由 两 个 频繁 二 项 
{A,B,C} 仅 出 现 
所 以 {A,B,C} 必 


一 次 ， 即 得 出 {B,C} 
{A,B}, {A,C}、 
E (k>3 ) 依然 如 此 ， 


e E 


2.2 


D 


EE: 
编程 框 


filter 等 


ER 


IH 
HW 


Æ RDD 的 
算 子 扫描 指定 数据 集 
的 数据 块 ， 并 分 配 到 每 个 work 节点 进行 处 理 。 
架 均 是 基于 RDD 操作 , 结合 
子 进行 挖掘 频繁 集 ， 使 
着 过 程 中 把 频繁 集中 的 每 个 项 
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算法 实现 


加 载 到 Spark RDD 中 ， 
并 行 计算 ， 
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本 文 算法 基于 Spark 内 部 运行 机 制 
充分 利用 集群 内 存 实 现 对 弹性 数据 
将 数据 集 以 RDD 的 
分 片 数 ， 


H 


Chinax 


ve 
iv 合作 期 D. 
MM DET 


iE X HDFS 的 事务 数 


多 式 存储 , 利用 textfile 
把 数据 集 分 为 大 小 相似 、 非 
整个 Spark 
reduceByKey、 


flatMap、 map、 


1 scala 语言 进行 编写 。 挖 掘 频 


存储 到 布 隆 过 滤器 中 。 挖 气 


频繁 集 流程 如 图 2 所 示 。 


个 阶段 。 第 一 阶段 寻找 出 所 有 的 频繁 


[TB-sparkContent text 


IL,-TB.flatMapO.map(tem.1). 


KeduceByKey(item,item).filter 


2—min sup) 


L;-;-TB.flatMap().mapO.mapO.r 
educeByKey() filter() 


E 


Y 
[m] 


图 2 频繁 外 


ZIETEN Z9 


挖掘 的 流程 
每 一 项 集 的 获取 和 迭代 生成 频繁 k 项 集 俩 


项 集 ， 读 入 HDFS 中 的 


待 读 取 数据 集 。 首 先 将 flatMap0 函 数 应 用 于 数 


居 集 中 的 每 个 分 


这 个 和 


filter( ) ER 


输 


5: 


6: 


区 数据 集 得 到 每 个 事务 ， 
得 到 每 一 
«key,value» £f], H 


频繁 一 项 集 的 算法 ， 图 


个 项 目 ; 


Spark RDD 


对 于 每 个 事务 
然后 对 每 一 项 目 应 用 map( ) 函 数 生成 
中 key 表示 事务 中 的 每 个 项 目 ，value 为 
有 务 的 所 有 项 目 ， 本 文 将 value 设 为 1， 根 
reduceByKey( ) 函 数 得 到 项 
数 筛 选 出 大 于 最 小 支持 度 阔 值 的 项 目 ， 
把 频繁 一 项 集 存在 布 隆 过 滤器 中 。 


的 计数 <item,count>; 最 后 通过 


算法 1 获取 频繁 一 项 集 


频繁 一 项 集 的 获取 
输入 : 数据 集 D， 最 小 支持 度 min sup 
出 : 频繁 一 项 集 LI 


: for each Transaction T€ D 


flatMap(T.split(^  ”)) 

for each itemi ET 
yield(i, 1) 

end flatMap 

SoreAtRDDI 


RDD2-RDDI.reduceByKey( + ) 


SZ flatMap( ) 函 数 


HOS WEBS 


结果 存储 在 
算法 1 为 获取 


3 展示 了 频繁 一 项 集 生 成 的 示例 。 
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录用 稿 
8: foreach tuple t€ RDD2 
9: flatMap(t, count) 
10:  iftcount^-min sup 
11 yield(t, count) 
12: | end flatMap() 
13:  storeAtRDD3 

Tid| Item 

T1 | AB.DF 

T2 | A.B.C 

T3 | AB.CE 

T4 | BCD.F 

T5 | AB.CDE 

|T6 | DF 


对 RDD 中 待 处 理 的 数据 集 应 用 
的 每 个 事务 , 对 每 个 事务 应 用 
个 数 小 于 kel 的 事务 ， 并 1] 
HÆ: 对 修剪 后 的 事务 应 用 
发 配对 ,生成 <key,value> 键 值 对 
选 模式 ，value 是 事务 中 所 有 的 k 项 候选 模式 集合 ， 
数 1， 并 只 保留 出 现 次 数 为 k(k+1)/2 ff] k 3 
£ 函数 组 合 所 有 键 值 对 ， 


Rz: 


ur 


ji 


图 3 频繁 一 


项 集 的 生成 的 示例 图 


第 二 阶段 开始 进行 迭 


map() 函 数 进行 修剪 ， 


B Bloom 2: 
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0: for each Transaction T€ D 


1: flatMap(T.split(^  ”)) 

2: CT=subset(Ck, T) 

3: for each canadiate cc CT 
4: yield(c, 1 


5: end flatMap 


6: SOoreAtRDDI 


通过 reduceByKey( ) 


H3] 


和 布 隆 过 滤器 中 。 当 不 再 有 频繁 集 4 
频繁 集合 。 算 法 2 为 获取 频繁 一 项 集 的 算法 ， 


| 数 ， 格 式 为 <itemset,count>; 最 后 通 ; 
率 大 于 最 小 支持 值 的 集合 


二 项 集 生成 的 示例 。 


FP 的 k 项 候 
将 它 设 为 整 


7: | RDD2=RDDI.reduceByKey( + ) 
C 8: for each itemSet € RDD2 
P | 9: flatMap(itemSet, count) 
d 20: ifitemSet.count^-min sup 
21: yield(itemSet, count) 
页 集 。 首 22: end flatMap() 
， 获 取 数据 集 23; storeAtRDD3 
| 除 挥 项 23 算法 的 复杂 度 分 析 
过 滤器 中 存在 的 第 K 次 迭代， 由 频繁 K-1 项 集 生成 频繁 K 项 集 ， 频 繁 K-1 
生 所 有 可 能 的 K 项 MÆ Le DNAN f 假设 有 x 个 事务 , m 个 Mapper, 每 个 事务 


中 的 平均 项 目 个 数 为 g，n 为 k 次 迭代 生成 的 候选 集 个 数 ，t 为 
在 哈 希 树 中 搜索 一 个 元 素 花费 的 时 间 , 为 在 布 隆 过 滤器 中 搜索 


民 据 关键 字 
| 每 个 候选 模式 
X filter( ) E o oio th 
， 把 频繁 K+1l 项 集 存储 在 Spark RDD 


EIFE TAROT 


所 有 的 


3] 4 展示 了 频繁 


Count 


e| vj j ej e 


图 4 频繁 二 项 集 


算法 2 频繁 k 项 集 获取 
频繁 k 项 集 的 获取 
MA: 事务 数据 库 D， 频 繁 k-1 项 集 


fth: 频繁 k 项 集 Lk 


Lk-1.storeInBloomFilter 


for each Transaction T€ D 


flatMap(T.split(* — ")) 


item-intersect(T, Lk-1) 


C=map(item=>(itemSet,1)) 


for each itemSet s E C 


Ck=intersect(C, s.count= k(k-1)/2)) 


end flatMap 


soreAtRDD1 


个 元 素 花 费 的 时 间 , t 为 压缩 过 程 所 花 时 间 , 每 个 候选 集 占 bl 

个 字 节 ， 每 单个 项 目 占 bo 个 字 节 。 
第 次 迭代 ， 由 频繁 KK-1 项 集 生 成 频繁 K 项 集 , 假设 f 为 

的 频繁 K-1 项 集 个 数 ， 候 选 K 项 集 Ck 的 个 数 为 n， 有 x 个 事 
务 ，m 个 Mapper， 每 个 事务 中 的 平均 项 目 个 数 为 g，，t 为 在 
哈 希 树 中 搜索 一 个 元 素 花费 的 时 间 ，b 为 在 布 隆 过 滤器 中 搜索 
一 个 元 素 花费 的 时 间 。 压 缩 时 间 c 
2.3.1 时 间 复 杂 度 
生成 候选 集 的 时 间 〈 连 接 和 剪 切 的 总 时 间 ) T1， 候 选集 存 
储 到 哈 希 树 中 的 时 间 T2， 生 成 键 值 对 的 时 间 T3 ， 基 于 哈 希 树 
改进 算法 进行 第 K 次 迭代 花费 的 时 间 为 O(Ta) 。 


生成 候选 集 的 时 间 为 
TI = K*n/ (6) 
存储 候选 集 到 哈 希 树 中 的 时 间 为 
T2-K*n/ (0) 


搜索 和 生成 键 值 对 的 时 间 为 : 


7T3 = 二 *n8 (8) 
m 


蛤 希 树 改进 算法 的 第 K 次 迭代 的 时 间 复 杂 度 为 


=O(2Kn’ + 二 *18) (9) 
m 


存储 频繁 单项 集 在 布 隆 过 滤器 中 的 时 间 TA, 剪 切 事务 的 时 
间 T5， 生 成 键 值 对 的 时 间 T6， 利 用 布 隆 过 滤器 改进 算法 花费 
时 间 为 O(Tb) 

频繁 一 项 外 


存储 在 布 隆 过 滤器 中 的 时 间 : 
T4-1, (10) 


Tt 


u 
m 
jlin 
po 


事务 剪 枝 的 时 间 : 
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2.0; 硬件 环境 为 Intel corei7-6500U 8 GB 内 存 1T 硬盘。 采用 8 
台 计 算 机 搭建 Spark 集群 运行 环境 , 集群 共 8 个 节点 , 把 其 中 一 
台 计 算 机 设 为 master 节点 , 其 他 7 台 机 器 设 为 slave 节点 , 每 个 
节点 8 个 cores, 64GB RAM. 


表 1 数据 集 表 
数据 集 事务 个 数 项 目 个 数 
T1014D100K 100000 870 
Retail 88163 16470 
Musroom 8124 119 
Kosarak 990002 41270 
BMSWebView2 77512 3340 
T25110D10K 4900 990 
33 可 扩展 性 
可 扩展 性 M9 实际 上 是 与 并 行 算法 以 及 并 行 计算 机 体系 结构 
放 在 一 起 讨论 的 ， 某 种 算法 在 某 个 机 器 上 的 可 扩展 性 反映 该 算 
法 是 否 能 有 效 利用 不 断 增加 的 corestl91]。 本 文 研究 可 扩展 性 的 
的 就 是 要 使 算法 可 以 利用 更 多 的 处 理 器 ， 并 且 可 以 预测 当 某 个 
算法 移植 到 大 规模 处 理 机 上 的 运行 效果 。 
实验 用 增加 逻辑 核 core 的 个 数 和 数据 集 的 复制 倍数 的 方式 ， 


录用 入 
7T5 = 二 * gut, (11) 
m 
在 最 糟糕 的 情况 下 生成 键 值 对 的 时 间 : 
T6 = 二 #118 (12) 
m 
布 降 过 滤器 改进 算法 第 K 次 迭代 时 间 复 杂 度 : 
Tb=O( t, — e (n* +g) (13) 
m 
在 大 数据 前 提 下 ，K GARRO ，t1〈 哈 希 树 中 搜索 一 个 
元 素 花 费 的 时 间 ),t2( 布 隆 过 滤器 中 搜索 一 个 元 素 花 费 的 时 间 )， 
(事务 和 项 目 压缩 的 时 间 ) 都 相对 于 其 他 值 过 小 可 以 忽略 不 计 ， 
在 迭代 过 程 中 n 和 了 存在 如 下 关系 : 
Af -1) 
gn. ue 14 
2 (14) 
在 大 数据 环境 下 n 特别 大 ， 因 此 f 关 于 n 的 关系 式 可 以 化 
简 得 到 
f - J2n (15) 
Ta-Tb 可 化 简 为 
Kn" + x£g 3, xn" (16) 


第 二 次 迭代 时 候选 集 过 大 ，V2n >> g 即 Ta?» Tb. 


观察 算法 对 不 同 数据 集 的 执行 时 间 ， 判 断 该 算法 的 可 执行 性 和 
可 扩展 性 .本 文选 用 了 Retail; Musroom, Kosarak, BMSWebView2 
数据 集 进行 实验 ， 实 验 结果 如 图 5、6 所 示 。 图 5 表示 随 着 逻辑 
核 个 数 的 增加 ， 执 行 时 间 几 乎 是 呈现 线性 减少 趋势 ， 图 6 表示 


此 可 以 得 出 , 改进 算法 的 时 间 复 杂 度 远 远 低 于 YAFIM 算 
法 的 时 间 复 杂 度 
2.32 空间 复杂 度 
YAFIM 算法 的 空间 复杂 度 是 生成 候选 集 和 创建 哈 希 树 存 储 
候选 集 所 占 内 存 的 和 。 
存储 候选 集 的 空间 复杂 度 为 
Ofc’ (k+1)xh) (17) 
创建 一 个 hash 树 空间 复杂 度 为 
O(kxc! xb) (18) 
Apriori 算法 总 体 空间 复杂 度 
O(c [kb, b, )+b,]) (19) 
本 文 算法 在 布 隆 过 滤器 中 存储 频繁 集 当 中 的 单个 项 目 ， 空 


间 复 杂 度 为 0(%x/f) 。 
法 的 空间 复杂 度 。 


3 ”实验 


3.1 实验 数据 


实验 选择 了 六 个 特点 不 同 的 大 数据 集 ， 


3.2 ”实验 环境 


本 文 算法 的 空间 复杂 度 远 远 小 于 Apriori 算 


如 表 1 所 示 。 


实验 的 软件 环境 为 64 位 Ubantu 14.04 Linux 操作 系统 、JDK- 
1.8 Hadoop-2.6.0 Scala-2.12.1 Spark-1.6.1 Python-3.6.3 Anaconda- 


随 着 数据 集 复制 
趋势 ， 实 验 结果 说 明 该 算法 是 具 


1000 


倍数 的 增加 ， 执 行 时 间 几 乎 是 呈现 线性 增 


可 执行 性 和 可 扩展 性 的 。 


加 的 


-e- MUSROOM 
> RETAIL 
—-KOSARAK 


—-BMSWEBVIEW2 


& 
E 
€ 400 
200 
0 
32 
图 5 随 着 逻辑 核 个 数 的 增多 ， 算 法 执行 时 间 的 变化 
T 
1500 F [+ BusWEBVIEW2 
-e-MUSROOM 
RETAIL 
KOSARAK 
4.1000 - 
& 
E 
500 - 
E 
0 I 
2 4 8 16 


倍数 


图 6 随 着 数据 集 复 制 倍数 的 增多 ， 算 法 执行 时 间 的 变化 


3.4 


对 比 实验 选用 


对 比 实 验 


基于 Hadoop 的 经 典 算 法 MRApriori 算法 、 
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录用 稿 


小 支持 度 下 进行 比较 。 

在 Retail 数据 集 上 , min_sup=0.15% 的 条 件 下 三 种 算法 的 时 
间 比 较 如 图 7 所 示 。 本 文 算法 明显 优 于 YFAIM、MRApriori 算 
法 , DEER KER, 生成 频繁 二 项 集 时 ,本 文 算法 在 速度 上 
比 YFAIM 算法 提升 了 近 6 倍 ， 比 MRApriori 算法 提升 了 近 30 


lr. 
Ho 
500 国 MRApriori 
国 YAFIM 
400 国 本 文 算法 
EN 
& 300 - J 
E 
€ 200 + J 


100 
í | | MEN @__ 
í 迭代 次 数 

图 7 在 Retail 数据 集 下 三 个 算法 每 次 迭代 的 时 间 对 比 

在 T10I4D100K 数据 集 上 , min sup=0.15% 条 件 下 三 种 算法 
的 比较 时 间 如 图 8 所 示 。 本 文 算法 明显 优 于 YFAIM, MRApriori 
算法 , 尤其 在 第 二 次 迭代 生成 频繁 二 项 集 时 , 本 文 算 法 在 速度 上 
比 YFAIM 算法 提升 了 近 三 倍 ， 比 MRApriori 算法 提升 了 近 10 


H o 
250 7 T ] 
BllvRApriori 
200 - WlvarM | 
国术 文 算法 
® 150 
E 
$ 100 
| L.. LL 
0 
1 2 3 4 


迭代 次 数 


图 8 TIOI4DIOOK 数据 集 下 三 个 算法 每 次 迭代 的 时 间 对 比 

在 T25110D10K 数据 集 上 , min_sup=0.10% 条 件 下 三 种 算法 
的 比较 时 间 如 图 9 所 示 。 本 文 算法 明显 优 于 YFAIM.MRApriori 
算法 , 尤其 在 第 二 次 迭代 生成 频繁 二 项 集 时 , 本 文 算法 在 速度 上 
比 YFAIM 算法 提升 了 近 三 倍 ， 比 MRApriori 算法 提升 了 近 10 


Hr. 


首 o 
BlluRapriori 
300 国 YAFIM 
国术 文 算法 
& 200 - 4 
E 
Pas 
100 - J 
, M. 
1 2 3 4 


选 代 次 数 


图 9 T25110D10K 数据 集 下 三 个 算法 每 次 迭代 的 时 间 对 比 


4 ”结束 语 


于 存储 改进 的 分 区 并 行 算 法 ， 围 绕 如 何 提升 算 


本 文 提出 基 


Chinaxiv (ERST. 


王 永 贵 ， 等 : 基于 存储 改选 的 分 区 并 行 天 联 规则 挖 报 


法 执行 性 能 进行 改进 ， 充 分 利用 布 隆 过 滤器 存储 数据 的 时 间 和 
空间 优势 来 满足 挖掘 过 程 中 的 存储 、 碍 询 需 要 ， 避 免 大 量 数据 
存储 在 内 存 中 会 对 服务 器 造成 巨大 压力 。 算 法 基于 Spark 框架 
每 次 迭代 ， 首 先 对 事务 进行 压缩 ， 并 过 滤 掉 未 在 布 隆 过 滤器 中 
出 现 的 项 目 ， 然 后 基于 频繁 集中 的 单项 组 成 候选 集 ， 压 缩 候选 
集 ， 最 后 分 区 并 行 挖掘 频繁 集 。 实 验 结果 表明 ， 算 法 较 好 提升 
挖掘 频繁 项 集 效率 尤其 让 第 二 次 迭代 变 得 高 效 ， 节 省 了 资源 空 
RU 应用 算法 到 更 大 规模 的 数据 
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